Jag skriver för närvarande en grundläggande parser för en XML-smak. Som en övning implementerar jag en LL-bordsdriven parser. Detta är mitt exempel på BNF-grammatik: % token namn datasträng %% / * LL (1) * / doc: elem elem: "<" open_tag open_tag: namn attr close_tag close_tag: ">" elem_or_data "" name ">" | "/>" ; elem_or_data: "<" open_tag elem_or_data | data elem_or_data | / * epsilon * / ; attr: name ":" string attr | / * epsilon * / ; Är denna grammatik korrekt? Varje terminal bokstavlig är mellan citat. De abstrakta terminalerna anges med% token. Jag kodar en handskriven lexer för att konvertera min input till en tokens-lista. Hur skulle jag symbolisera de abstrakta terminalerna?
2021-03-03 08:11:44
Det klassiska tillvägagångssättet skulle vara att skriva ett reguljärt uttryck (eller annan erkännare) för varje möjlig terminal. Vad du kallar "abstrakta" terminaler, som är helt konkreta, är faktiskt terminaler vars tillhörande mönster känner igen mer än en möjlig inmatningssträng. Strängen som faktiskt känns igen (eller någon beräknad funktion av den strängen) ska skickas till tolkaren som symbolens semantiska värde. Nominellt kör tokenisern vid varje punkt i inmatningssträngen alla igenkännare och väljer den som har den längsta matchningen. (Detta är den så kallade "maximal munch" -regeln.) Detta kan vanligtvis optimeras, särskilt om alla mönster är reguljära uttryck. (F) lex gör till exempel den optimeringen för dig. En komplikation i ditt fall är att tokeniseringen av ditt språk är kontextberoende. I synnerhet när målet är elem_or_data är de enda möjliga tokens <, och "data". Inuti en tagg är dock "data" inte möjligt, och "namn" och "sträng" -taggar är möjliga (bland andra). Det är också möjligt att värdet på ett attribut kan ha samma lexikala form som nyckeln (dvs. ett namn). I XML själv måste attributvärdet vara en citerad sträng och användningen av en icke-citerad sträng kommer att flaggas som ett fel, men det finns säkert "XML-liknande" språk (som HTML) där attributvärden utan tomt utrymme kan infogas obekräftat. Eftersom den lexikala analysen beror på kontexten måste den lexikala analysatorn skickas (eller ha tillgång till) ytterligare en information som definierar det lexikala sammanhanget. Detta representeras vanligtvis som ett enda uppräkningsvärde, som kan beräknas baserat på de sista få tokens som returneras, eller baserat på den FÖRSTA uppsättningen av den aktuella parserstacken. 2 | Ditt svar StackExchange.ifUsing ("editor", function () { StackExchange.using ("externalEditor", funktion () { StackExchange.using ("snippets", function () { StackExchange.snippets.init (); }); }); }, "kodutdrag"); StackExchange.ready (funktion () { var channelOptions = { taggar: "" .split (""), id: "1" }; initTagRenderer ("". split (""), "" .split (""), channelOptions); StackExchange.using ("externalEditor", funktion () { // Måste aktivera redaktören efter utdrag, om utdrag aktiverat if (StackExchange.settings.snippets.snippetsEnabled) { StackExchange.using ("snippets", function () { createEditor (); }); } annat { createEditor (); } }); funktion createEditor () { StackExchange.prepareEditor ({ useStacksEditor: falsk, heartbeatType: 'answer', autoActivateHeartbeat: false, convertImagesToLinks: true, noModals: sant, showLowRepImageUploadWarning: true, reputToPostImages: 10, bindNavPrevention: true, postfix: "", imageUploader: { brandingHtml: "Drivs av \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.72543 4.916.56 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C414.042.42 12.6 12.6 41.5985 12.6954 41.5985 10.1419V6.59049C41.5985 5.28821 41.1394 4.66232 40.1061 4.66232C39.0732 4.66232 38.5948 5.28821 38.5948 6.59049V9.60062C38.5948 10.8521 38.2696 11.5455 37.0451 11.545.5 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evend = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.9913.4279.4670.46 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8346C28.125 12.222 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335172424.166 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.8045 11.95129.66.280.24513.8962C19.3298 13.8962 19.8079 13.2535 19.8079 11.9512V8.12928C19.8079 5.82936 18.4879 4.62866 16.4027 4.62866C15.1594 4.62866 14.279 4.98375 13.3609 5.88013C12.653 5.05154 11.6581 4.62866 728669.3328 13.9157 13.2535 13.9157 11.9512V8.90741C13.9157 7.58817 14.3365 6.91179 15.4269 6.91179C16.4027 6.91179 u .31675 5.28821 2.83866 4.66232 1,82471 4.66232C0.791758 4.66232 0.313354 5.28821.213351 13.2535 3.316 75 11.9512V6. Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e", contentPolicyHtml: "Användarbidrag licensierade under \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (content policy) \ u003c / a \ u003e", allowUrls: sant }, onDemand: sant, discardSelector: ".discard-answer" , direktShowMarkdownHelp: true, enableTables: true, enableSnippets: true }); } }); Tack för att du har bidragit med ett svar till Stack Overflow! Var noga med att svara på frågan. Ge detaljer och dela din forskning! Men undvik ... Be om hjälp, förtydligande eller svara på andra svar. Att göra uttalanden baserade på åsikt; Säkerhetskopiera dem med referenser eller personlig erfarenhet. För att lära dig mer, se våra tips för att skriva bra svar. Utkast sparat Utkast kasseras Registrera dig eller logga in StackExchange.ready (funktion () { StackExchange.helpers.onClickDraftSave ('# login-link'); }); Registrera dig med Google Registrera dig med Facebook Registrera dig med e-post och lösenord Skicka in Lägg upp som gäst namn E-post Obligatoriskt men aldrig visat StackExchange.ready ( funktion () { StackExchange.openid.initPostLogin ('. New-post-login', 'https% 3a% 2f% 2fstackoverflow.com% 2fquestions% 2f54745855% 2ftokenize-abstract-terminals-in-ll-grammar% 23new-answer', 'question_page' ); } ); Lägg upp som gäst namn E-post Obligatoriskt men aldrig visat Lägg upp ditt svar Kassera Genom att klicka på “Lägg upp ditt svar” godkänner du våra användarvillkor, sekretesspolicy och cookiepolicy Inte svaret du letar efter? Bläddra bland andra frågor taggade parsing lexer bnf ll rekursiv härkomst eller ställ din egen fråga.